Package-Dplyr 다루기
- tidyverse-
1
2
tidyverse package
Package-Dplyr 다루기
- Dplyr -
3
Dplyr 함수
4
distinct()
filter()
slice()
arrange()
select()
rename()
mutate()
relocate()
row() 관련 함수 column() 관련 함수
summarise
group_by
기타 함수
Package-Dplyr 다루기
-자주 사용하는 함수 -
5
starts_with(“he”) :“he”시작하는 변수 선택
ends_with(“ght”) :ght 끝나는 변수 선택
contains(“e”) :“e”포함하는 변수 선택
everything() : select에서 선택한 변수 제외한 모든 변수
선택
last_col() :마지막 변수를 선택
num_range(“x”,1:10) : x1 , x2 , 같음
Selcet 함수
6
select(data,변수명1,변수명2,… ) : 원하는 column 선택하는 함수
! : 포함 안할
- : 선택적으로 변수
`:` : 연속적인 변수 추출할
c() : 여러 변수 추출
사용 가능 연산자 select 자주 옵션
Selcet 함수
7
select() 함수를 이용해서 변수 이름 변경 가능
0문제
8
결측값 유무,데이터 타입,이상치 있는지 확인 작업 해보기
9
group_by(data,변수명1,변수명2, … ) : 지정한 변수별로 연산을 지정
group_by 함수
summarise( column= 함수(데이터), …) : 변수를 집계하는 함수
summarise 함수
보통 group_by 변수 지정해주고 summarise 통계량을 본다.
보통 둘이 같이 쓰임
10
apply(data, MARGIN = 1 or 2, FUN = 적용함수)
data : 데이터셋
MARGIN : 행을 기준으로 1 , 2 : 열을 기준으로
FUN : 적용할 함수(ex : mean, median , … )
apply 함수
apply 적용 예시
1문제
11
총데터중1. 성별비율 2. 회사비율 3. q1 ~ q10 평균 구하기
12
1문제 코드
13
mutate 함수
mutate( 생성 변수 =새로 넣은 데이터식,) : 새로운 변수를 생성하는 함수
relocate 함수
relocate( Column, Column,) : 입력한 변수순서로 열의 위치를 재배치해준다.
.after = 변수명 :입력한 변수 뒤에다 지정한 변수를 위치시킨다.
.before = 변수명 :입력한 변수 앞에다 지정한 변수를 위치시킨다.
case_when(조건 ~변수명) : 조건에 맞춰 value값을 지정해준다.
fct_collapse(변수명,새로운 value=c(“바꿔줄 value1”,바꿔줄 value2”,)
같이 쓰는 옵션
2문제
14
성별 비교
<조건 >
-연령대별로 그룹 지어서 시각화
-lubridate 패키지 이용해서
column 추가해서 나이 구분
15
2문제 코드
3문제
16
회사별로 q1~q10 최소,평균,대값 구하기
<조건 >
-회사별로 그룹화
4문제
17
시간 응답 비교하
<조건 >
- geom_bar 보여주기
5문제
18
20202021
<조건 >
- score변수 사용해서 행복지수 비교
-구분 항목은 각각 성별/연령대/회사별
구분해보기
6문제
19
복지 상하 10% 하기
<조건 >
- geom_bar 보여주기
7문제
20
월별 응답자 비교
<조건 >
- geom_bar 보여주기